机器学习(ML)团队经常在项目上工作,只是为了意识到模型的性能还不够好。确实,支持ML的系统的成功涉及将数据与业务问题保持一致,将其转化为ML任务,尝试算法,评估模型,捕获用户的数据等。文献表明,支持ML的系统很少是基于此类问题的精确规格而构建的,这导致ML团队由于错误的假设而变得不一致,这可能会影响此类系统的质量和整体项目成功。为了帮助解决此问题,本文将我们的工作描述为基于透视的方法,用于指定启用ML的系统。该方法涉及分析一组45毫升关注,分为五个观点:目标,用户体验,基础架构,模型和数据。本文的主要贡献是提供两个新的工件,可用于帮助指定支持ML的系统:(i)基于透视的ML任务和关注图以及(ii)基于透视的ML规范模板。
translated by 谷歌翻译
我们引入了一个神经隐式框架,该框架利用神经网络的可区分特性和点采样表面的离散几何形状,以将它们作为神经隐含函数的级别集近似。为了训练神经隐式函数,我们提出了近似签名距离函数的损失功能,并允许具有高阶导数的术语,例如曲率的主要方向之间的对齐方式,以了解更多几何细节。在训练过程中,我们考虑了基于点采样表面的曲率的不均匀采样策略,以优先考虑点更多的几何细节。与以前的方法相比,这种抽样意味着在保持几何准确性的同时更快地学习。我们还介绍了神经表面(例如正常矢量和曲率)的分析差异几何公式。
translated by 谷歌翻译
RGB-D数据对于解决计算机视觉中的许多问题至关重要。已经提出了数百个包含各种场景的公共RGB-D数据集,例如室内,室外,空中,驾驶和医疗。这些数据集对不同的应用程序很有用,对于解决经典的计算机视觉任务(例如单眼深度估计)是基础。本文审查并分类了包括深度信息的图像数据集。我们收集了203个数据集,其中包含可访问的数据,并将它们分为三类:场景/对象,身体和医疗。我们还提供了不同类型的传感器,深度应用程序的概述,并研究了包含深度数据的数据集的使用和创建的趋势和未来方向,以及如何将它们应用于研究中可推广的机器学习模型的开发。单眼深度估计场。
translated by 谷歌翻译
Recent video+language datasets cover domains where the interaction is highly structured, such as instructional videos, or where the interaction is scripted, such as TV shows. Both of these properties can lead to spurious cues to be exploited by models rather than learning to ground language. In this paper, we present GrOunded footbAlL commentaries (GOAL), a novel dataset of football (or `soccer') highlights videos with transcribed live commentaries in English. As the course of a game is unpredictable, so are commentaries, which makes them a unique resource to investigate dynamic language grounding. We also provide state-of-the-art baselines for the following tasks: frame reordering, moment retrieval, live commentary retrieval and play-by-play live commentary generation. Results show that SOTA models perform reasonably well in most tasks. We discuss the implications of these results and suggest new tasks for which GOAL can be used. Our codebase is available at: https://gitlab.com/grounded-sport-convai/goal-baselines.
translated by 谷歌翻译
零射击动作识别(ZSAR)方法的成功与用于转移知识的语义侧信息的性质本质上相关,尽管该方面尚未在文献中进行研究。这项工作基于动作对象和动作描述性句子的关系介绍了一种新的ZSAR方法。我们证明,使用描述句子代表所有对象类时,当使用释义估计方法用作嵌入器时,会生成准确的对象相关估计。我们还展示了如何仅基于一组句子而没有硬人标签的一组句子来估算一组动作类别的概率。在我们的方法中,将这两个全局分类器(即使用在整个视频中计算的功能)的概率组合在一起,从而产生了有效的转移知识模型进行动作分类。我们的结果是Kinetics-400数据集中的最新结果,在ZSAR评估下对UCF-101具有竞争力。我们的代码可在https://github.com/valterlej/objsentzsar上找到
translated by 谷歌翻译
最近的研究表明,犯罪网络具有复杂的组织结构,但是是否可以用来预测犯罪网络的静态和动态特性。在这里,通过结合图表学习和机器学习方法,我们表明,可以使用政治腐败,警察情报和洗钱网络的结构性特性来恢复缺失的犯罪伙伴关系,区分不同类型的犯罪和法律协会以及预测犯罪分子之间交换的总金额,所有这些都具有出色的准确性。我们还表明,我们的方法可以预期在腐败网络的动态增长过程中,其准确性很高。因此,与在犯罪现场发现的证据类似,我们得出结论,犯罪网络的结构模式具有有关非法活动的重要信息,这使机器学习方法可以预测缺失的信息,甚至预测未来的犯罪行为。
translated by 谷歌翻译
促使模型表现出令人印象深刻的几次学习能力。在测试时间与单个模型或多个模型的组成一起重复相互作用,进一步扩展了功能。这些组成是概率模型,可以用具有随机变量的图形模型的语言表示,其值是复杂的数据类型,例如字符串。具有控制流和动态结构的情况需要概率编程的技术,这些技术允许以统一语言实施不同的模型结构和推理策略。我们从这个角度正式化了几种现有技术,包括刮擦板 /思想链,验证者,星星,选择 - 推动和工具使用。我们将结果程序称为语言模型级联。
translated by 谷歌翻译
由单一头皮电极(加上参考电极)捕获的时间序列用于预测癫痫发作的敏感性。时间序列进行预处理,分割,每个节段使用三种不同的已知方法转化为图像:复发图,Gramian Angular Field,Markov Transition Firt Field。通过平均CNN的SoftMax层的输出来计算,在未来预定义的时间窗口中发生癫痫发作的可能性与通常考虑分类层输出的情况不同。通过阈值这种可能性,癫痫发作的预测具有更好的性能。有趣的是,对于几乎每个患者,最佳阈值与50%不同。结果表明,该技术可以预测一些癫痫发作和患者的良好结果。但是,需要更多的测试,即更多的患者和更多的癫痫发作,以更好地了解该技术的真正潜力。
translated by 谷歌翻译
在上一篇论文中,我们提出了一组概念,即公理架构和算法,这些算法可以被代理商用于学习描述其行为,目标,能力和环境。当前的论文提出了一组新的概念,即公理架构和算法,使代理商可以学习对观察到的行为(例如,困惑行为),其参与者(例如,不受欢迎的命题或动作)及其环境的新描述(例如,不兼容的命题)。每个学习的描述(例如,某个动作都可以防止将来执行另一个动作)由实体之间的关系(命题或动作)之间的关系表示,并且由代理人,仅通过观察,使用独立于域的公理模式来学习或学习算法。代理人用来表示他们学到的描述的关系受到了修辞学理论(RST)的启发。该论文的主要贡献是关系家族,尽管受到首次关系特许权的启发。家庭关系的准确定义虽然涉及一组悬浮概念,它们的定义和相应的算法被提出。尽管家庭的关系一旦从代理商的观察中提取出来,就会对观察到的行为感到惊讶,并在某些情况下为此提供了理由。本文使用实施的软件在演示方案中显示了提出的提案的结果。
translated by 谷歌翻译
多任务学习最近已成为对复杂场景的全面理解的有前途的解决方案。不仅具有适当设计的记忆效率,多任务模型都可以跨任务交换互补信号。在这项工作中,我们共同解决了2D语义分割,以及两个与几何相关的任务,即密集的深度,表面正常估计以及边缘估计,显示了它们对室内和室外数据集的好处。我们提出了一种新颖的多任务学习体系结构,该体系结构通过相关引导的注意力和自我注意力来利用配对的交叉任务交换,以增强所有任务的平均表示学习。我们考虑了三个多任务设置的广泛实验,与合成基准和真实基准中的竞争基准相比,我们的提案的好处。我们还将方法扩展到新型的多任务无监督域的适应设置。我们的代码可在https://github.com/cv-rits/densemtl上找到。
translated by 谷歌翻译